درخت تصمیم داده های نامطمئن (مطالعه ی موردی داده های نامطمئن طرح اطلاعات اقتصادی خانوار)

نویسندگان

مهسا قائمی

mahsa ghaemi میرمحسن پدرام

mir mohsen pedram عادل آذر

adel azar

چکیده

درخت تصمیم یکی از تکنیک های بسیار رایج در طبقه بندی داده ها است. در این مقاله درخت تصمیم داده های نامطمئن مورد بررسی قرار گرفته است. از عواملی که سبب عدم اطمینان در داده ها می شوند می توان به محدودیت در دقت اندازه گیری، منابع قدیمی، اظهار نشدن اطلاعات و مسائلی که در انتقال داده ها بوجود می آید اشاره نمود. در داده های نامطمئن، مقدار داده با یک مقدار مشخص، نشان داده نمی شود و با چند مقدار به شکل توزیع احتمالی نشان داده می شود. داده های طرح اطلاعات اقتصادی خانوار نیز به دلیل کم گویی یا نبود برخی از داده ها، در دسته ی داده های نامطمئن قرار می گیرند، بنابراین لازم است که از الگوریتمی استفاده شود که بتواند با داده های نامطمئن کار کرده و با دقت قابل قبولی طبقه بندی داده ها را انجام دهد. در این مقاله، الگوریتم درخت تصمیم نامطمئن پیشین تعمیم داده شده است. این الگوریتم از روش های پیش بینی مثل نرخ بهره و آنتروپی و همچنین داده های نامطمئن بازه ای استفاده می کند و توانسته است با استفاده از توابع چگالی احتمال متفاوت سبب کاهش اثر داده های نامتوازن در خروجی الگوریتم شود. این الگوریتم برای هر دو مجموعه داده های مطمئن و نامطمئن کار می کند و نتایج این مقاله نشان می دهد که الگوریتم پیشنهادی، دقت پیش بینی رضایت بخشی دارد. ساخت درخت تصمیم داده های نامطمئن، حجم پردازش بیش تری را در پردازنده نسبت به ساخت درخت روی داده های مطمئن اشغال می کند، بنابراین در الگوریتم پیشنهادی از تکنیک ماکسیمم سطح استفاده می شود که مصرف پردازنده را بهینه خواهد کرد.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

درخت تصمیم داده‌های نامطمئن (مطالعه‌ی موردی داده‌های نامطمئن طرح اطلاعات اقتصادی خانوار)

درخت تصمیم یکی از تکنیک‌های بسیار رایج در طبقه‌بندی داده‌ها است. در این مقاله درخت تصمیم داده‌های نامطمئن مورد بررسی قرار گرفته است. از عواملی که سبب عدم اطمینان در داده‌ها می‌شوند می‌توان به محدودیت در دقت اندازه‌گیری، منابع قدیمی، اظهار نشدن اطلاعات و مسائلی که در انتقال داده‌ها بوجود می‌آید اشاره نمود. در داده‌های نامطمئن، مقدار داده با یک مقدار مشخص، نشان داده نمی‌شود و با چند مقدار به شکل ...

متن کامل

استخراج دانش از داده های بیماران دیابتی با استفاده از روش درخت تصمیم C5.0

Introduction: In the last 10 years The incidence of diabetes has doubled worldwide with annual increasing rate of about 6%. More than 2 million people in Iran are now affected by this disease. The present research deals with the relation between the observed complications of type 2 diabetic patients and some related features like Blood Glucose Level, Blood Pressure, Age, and Family History. The...

متن کامل

تحلیل داده های فضایی-زمانی: مطالعه موردی داده های میانگین سرعت باد روزانه استان زنجان

در این مقاله، ابتدا مبانی نظری مدلسازی نیمه طیفی مطالعه شده و به توصیف چند خاصیت از مدل های نیمه طیفی اخیر پرداخته می شود. سپس یک روش برای برآورد تابع کوواریانس فضایی-زمانی در حالت نیمه-طیفی پیشنهاد شده است. به منظور ارزیابی عملکرد مدل های نیمه طیفی ارائه شده، دو شبیه سازی انجام گرفته که در هرکدام از آنها روش برآورد پیشنهادی با سایر روش ها مقایسه شده است. روش مورد نظر موفقیت زیادی نسبت به سایر ...

متن کامل

کاربرد تکنیک داده کاوی درخت تصمیم CART در تعیین مؤثرترین فاکتورهای کیفیت آب آشامیدنی (مطالعه موردی: دشت کازرون استان فارس)

Background and Objective: Determination of quality parameters of drinkable water is important, especially in developing countries, to increase the productivity and better management and planning of water resources. The aim of current study was to apply CART decision tree data mining technique to determine the most effective factors on drinkable water quality in Kazeroon plain, located west of F...

متن کامل

اثر هموارسازی سود بر اطلاعات نامطمئن، بازده سهام و هزینه سهامداران

این پژوهش اثر هموارسازی سود بر اطلاعات نامطمئن، بازده سهام و هزینه سهامداران را مورد بررسی قرار می‌دهد. برای هموارسازی سود از دو شاخص استفاده می‌شود: هموارسازی سود از طریق کل اقلام تعهدی و هموارسازی سود از طریق اقلام تعهدی اختیاری. با مطالعه دقیق ادبیات، سه فرضیه طراحی و نمونه آماری شامل 111 شرکت از بین شرکت‌های پذیرفته شده در بورس اوراق بهادار تهران برای یک دوره سه ساله 1385-1387 انتخاب شده اس...

متن کامل

محتوای اطلاعاتی داده های ارزش افزوده : مطالعه موردی ایران

افشای اطلاعات مربوط به ارزش افزوده واجزای آن ، همچنین محتوای اطلاعاتی آن در سالیان اخیر بارها مورد آزمون قرار گرفته است..در تحقیق حاضر، هدف اصلی بررسی محتوای نسبی و افزاینده اطلاعاتی داده های ارزش افزوده (شامل ارزش افزوده و ارزش افزوده نقدی) در مقابل داده های سنتی ( شامل سود حسابداری و وجوه نقد حاصل از عملیات) می باشد. بدین منظور ارتباط بازده سهام و تغییرات داده های مربوط به ارزش افزوده، ارزش ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید


عنوان ژورنال:
بررسی های آمار رسمی ایران

جلد ۲۵، شماره ۲، صفحات ۱۱۵-۱۴۸

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023